7 research outputs found

    Techniques efficaces basées sur des vues matérialisées pour la gestion des données du Web (algorithmes et systÚmes)

    Get PDF
    Le langage XML, proposĂ© par le W3C, est aujourd hui utilisĂ© comme un modĂšle de donnĂ©es pour le stockage et l interrogation de grands volumes de donnĂ©es dans les systĂšmes de bases de donnĂ©es. En dĂ©pit d importants travaux de recherche et le dĂ©veloppement de systĂšmes efficace, le traitement de grands volumes de donnĂ©es XML pose encore des problĂšmes des performance dus Ă  la complexitĂ© et hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es ainsi qu Ă  la complexitĂ© des langages courants d interrogation XML. Les vues matĂ©rialisĂ©es sont employĂ©es depuis des dĂ©cennies dans les bases de donnĂ©es afin de raccourcir les temps de traitement des requĂȘtes. Elles peuvent ĂȘtre considĂ©rĂ©es les rĂ©sultats de requĂȘtes prĂ©-calculĂ©es, que l on rĂ©utilise afin d Ă©viter de recalculer (complĂštement ou partiellement) une nouvelle requĂȘte. Les vues matĂ©rialisĂ©es ont fait l objet de nombreuses recherches, en particulier dans le contexte des entrepĂŽts des donnĂ©es relationnelles.Cette thĂšse Ă©tudie l applicabilitĂ© de techniques de vues matĂ©rialisĂ©es pour optimiser les performances des systĂšmes de gestion de donnĂ©es Web, et en particulier XML, dans des environnements distribuĂ©s. Dans cette thĂšse, nos apportons trois contributions.D abord, nous considĂ©rons le problĂšme de la sĂ©lection des meilleures vues Ă  matĂ©rialiser dans un espace de stockage donnĂ©, afin d amĂ©liorer la performance d une charge de travail des requĂȘtes. Nous sommes les premiers Ă  considĂ©rer un sous-langage de XQuery enrichi avec la possibilitĂ© de sĂ©lectionner des noeuds multiples et Ă  de multiples niveaux de granularitĂ©s. La difficultĂ© dans ce contexte vient de la puissance expressive et des caractĂ©ristiques du langage des requĂȘtes et des vues, et de la taille de l espace de recherche de vues que l on pourrait matĂ©rialiser.Alors que le problĂšme gĂ©nĂ©ral a une complexitĂ© prohibitive, nous proposons et Ă©tudions un algorithme heuristique et dĂ©montrer ses performances supĂ©rieures par rapport Ă  l Ă©tat de l art.DeuxiĂšmement, nous considĂ©rons la gestion de grands corpus XML dans des rĂ©seaux pair Ă  pair, basĂ©es sur des tables de hachage distribuĂ©es. Nous considĂ©rons la plateforme ViP2P dans laquelle des vues XML distribuĂ©es sont matĂ©rialisĂ©es Ă  partir des donnĂ©es publiĂ©es dans le rĂ©seau, puis exploitĂ©es pour rĂ©pondre efficacement aux requĂȘtes Ă©mises par un pair du rĂ©seau. Nous y avons apportĂ© d importantes optimisations orientĂ©es sur le passage Ă  l Ă©chelle, et nous avons caractĂ©risĂ© la performance du systĂšme par une sĂ©rie d expĂ©riences dĂ©ployĂ©es dans un rĂ©seau Ă  grande Ă©chelle. Ces expĂ©riences dĂ©passent de plusieurs ordres de grandeur les systĂšmes similaires en termes de volumes de donnĂ©es et de dĂ©bit de dissĂ©mination des donnĂ©es. Cette Ă©tude est Ă  ce jour la plus complĂšte concernant une plateforme de gestion de contenus XML dĂ©ployĂ©e entiĂšrement et testĂ©e Ă  une Ă©chelle rĂ©elle.Enfin, nous prĂ©sentons une nouvelle approche de dissĂ©mination de donnĂ©es dans un systĂšme d abonnements, en prĂ©sence de contraintes sur les ressources CPU et rĂ©seau disponibles; cette approche est mise en oeuvre dans le cadre de notre plateforme Delta. Le passage Ă  l Ă©chelle est obtenu en dĂ©chargeant le fournisseur de donnĂ©es de l effort de rĂ©pondre Ă  une partie des abonnements. Pour cela, nous tirons profit de techniques de rĂ©Ă©criture de requĂȘtes Ă  l aide de vues afin de diffuser les donnĂ©es de ces abonnements, Ă  partir d autres abonnements.Notre contribution principale est un nouvel algorithme qui organise les vues dans un rĂ©seau de dissĂ©mination d information multi-niveaux ; ce rĂ©seau est calculĂ© Ă  l aide d outils techniques de programmation linĂ©aire afin de passer Ă  l Ă©chelle pour de grands nombres de vues, respecter les contraintes de capacitĂ© du systĂšme, et minimiser les dĂ©lais de propagation des information. L efficacitĂ© et la performance de notre algorithme est confirmĂ©e par notre Ă©valuation expĂ©rimentale, qui inclut l Ă©tude d un dĂ©ploiement rĂ©el dans un rĂ©seau WAN.XML was recommended by W3C in 1998 as a markup language to be used by device- and system-independent methods of representing information. XML is nowadays used as a data model for storing and querying large volumes of data in database systems. In spite of significant research and systems development, many performance problems are raised by processing very large amounts of XML data. Materialized views have long been used in databases to speed up queries. Materialized views can be seen as precomputed query results that can be re-used to evaluate (part of) another query, and have been a topic of intensive research, in particular in the context of relational data warehousing. This thesis investigates the applicability of materialized views techniques to optimize the performance of Web data management tools, in particular in distributed settings, considering XML data and queries. We make three contributions.We first consider the problem of choosing the best views to materialize within a given space budget in order to improve the performance of a query workload. Our work is the first to address the view selection problem for a rich subset of XQuery. The challenges we face stem from the expressive power and features of both the query and view languages and from the size of the search space of candidate views to materialize. While the general problem has prohibitive complexity, we propose and study a heuristic algorithm and demonstrate its superior performance compared to the state of the art.Second, we consider the management of large XML corpora in peer-to-peer networks, based on distributed hash tables (or DHTs, in short). We consider a platform leveraging distributed materialized XML views, defined by arbitrary XML queries, filled in with data published anywhere in the network, and exploited to efficiently answer queries issued by any network peer. This thesis has contributed important scalability oriented optimizations, as well as a comprehensive set of experiments deployed in a country-wide WAN. These experiments outgrow by orders of magnitude similar competitor systems in terms of data volumes and data dissemination throughput. Thus, they are the most advanced in understanding the performance behavior of DHT-based XML content management in real settings.Finally, we present a novel approach for scalable content-based publish/subscribe (pub/sub, in short) in the presence of constraints on the available computational resources of data publishers. We achieve scalability by off-loading subscriptions from the publisher, and leveraging view-based query rewriting to feed these subscriptions from the data accumulated in others. Our main contribution is a novel algorithm for organizing subscriptions in a multi-level dissemination network in order to serve large numbers of subscriptions, respect capacity constraints, and minimize latency. The efficiency and effectiveness of our algorithm are confirmed through extensive experiments and a large deployment in a WAN.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Techniques d'optimisation pour l'interrogation des sources de données hétérogÚnes et distribuées

    No full text
    Cette thĂšse traite plusieurs aspects du traitement de requĂȘtes dans un systĂšme relationnel d'intĂ©gration de donnĂ©es de type "peer-to-peer". Un tel systĂšme permet de partager des ressources hĂ©tĂ©rogĂšnes et distribuĂ©es entre plusieurs sites autonomes et distants. Une resource est une collection de donnĂ©es, ou un programme, que son propriĂ©taire veut partager avec d'autres utilisateurs. Des ressources diffĂ©rentes peuvent avoir des formats diffĂ©rents, p. ex., relationnel ou XML : elles seront toutes modĂ©lisĂ©ees comme des relations. Elles peuvent aussi avoir des capacitĂ©s de traitement de requĂȘtes trĂšs diffĂ©rentes : certaines peuvent Ă©valuer des requĂȘtes, d'autres permettrent uniquement d'accĂ©der Ă  leurs donnĂ©es, tandis que les ressources restreintes permettent d'obtenir des tuples uniquement en fournissant des valeurs pour certains attributs.Cette thĂšse apporte les contributions suivantes : 1. ModĂ©lisation : nous montrons comment utiliser le concept de tables Ă  patterns d'accĂšs pour modĂ©liser des donnĂ©es relationelles, objet, ou XML, ainsi que des programmes. Nous Ă©tudions la faisabilitĂ© d'une requĂȘte SQL sur des tables Ă  patterns d'accĂšs, pour une sĂ©mantique de multi-ensemble.2. Optimisation : nous dĂ©crivons l'espace de recherche de l'optimiseur pour des requĂȘtes sur des tables Ă  patterns d'accĂšs. Nous en estimons la taille de maniĂšre analytique et experimentale, et dĂ©crivons deux algorithmes d'optimisation. 3. ExĂ©cution : nous proposons un opĂ©rateur BindJoin efficace pour les appels de programmes et les transferts de donnĂ©es volumineuses. Le BindJoin inclut un cache pour Ă©viter des calculs ou des transferts redondants, et peut utiliser la prĂ©sence des duplicatas pour amĂ©liorer son taux de sortie. 4. Translation : nous dĂ©crivons une extension de ce systĂšme relationnel, lui fournissant une interface utilisateur XML. en particulier, nous proposons une mĂ©thode de translation d'une requĂȘte XML sur cette interface vers une requĂȘte SQL sur les sources de donnĂ©es.VERSAILLES-BU Sciences et IUT (786462101) / SudocSudocFranceF

    Techniques fondées sur des vues matérialisées pour la gestion efficace des données du web

    No full text
    De nos jours, des masses de donnĂ©es sont publiĂ©es Ă  grande Ă©chelle dans des formats numĂ©riques. Une part importante de ces donnĂ©es a une structure complexe, typiquement organisĂ©e sous la forme d'arbres (les documents du web, comme HTML et XML, Ă©tant les plus reprĂ©sentatifs) ou de graphes (en particulier, les bases de donnĂ©es du Web SĂ©mantique structurĂ©es en graphes, et exprimĂ©es en RDF). Exploiter ces donnĂ©es complexes, qu'elles soient dans un format d'accĂšs Open Data ou bien propriĂ©taire (au sein d'une compagnie), prĂ©sente un grand intĂ©rĂȘt. Le faire de façon efficace pour de grands volumes de donnĂ©es reste encore un dĂ©fi. Les vues matĂ©rialisĂ©es sont utilisĂ©es depuis longtemps pour amĂ©liorer considĂ©rablement l'Ă©valuation des requĂȘtes. Le principe est q'une vue stocke des rĂ©sultats pre-calculĂ©s qui peuvent ĂȘtre utilisĂ©s pour Ă©valuer (une partie d') une requĂȘte. L'adoption des techniques de vues matĂ©rialisĂ©es dans le contexte de donnĂ©es du web que nous considĂ©rons est particuliĂšrement exigeante Ă  cause de la complexitĂ© structurelle et sĂ©mantique des donnĂ©es. Cette thĂšse aborde deux problĂšmes liĂ©s Ă  la gestion des donnĂ©es du web basĂ©e sur des vues matĂ©rialisĂ©es. D'abord, nous nous concentrons sur le problĂšme de sĂ©lection des vues pour des ensembles de requĂȘtes RDF. Nous prĂ©sentons un algorithme original qui, basĂ© sur un ensemble de requĂȘtes, propose les vues les plus appropriĂ©es Ă  matĂ©rialiser dans la base des donnĂ©es. Ceci dans le but de minimiser Ă  la fois les coĂ»ts d'Ă©valuation des requĂȘtes, de maintenance et de stockage des vues. Bien que les requĂȘtes RDF contiennent typiquement un grand nombre de jointures, ce qui complique le processus de sĂ©lection de vues, notre algorithme passe Ă  l'Ă©chelle de centaines de requĂȘtes, un nombre non atteint par les mĂ©thodes existantes. En outre, nous proposons des techniques nouvelles pour tenir compte des donnĂ©es implicites qui peuvent ĂȘtre dĂ©rivĂ©es des schĂ©mas RDF sans complexifier davantage la sĂ©lection des vues. La deuxiĂšme contribution de notre travail concerne la rĂ©Ă©criture de requĂȘtes en utilisant des vues matĂ©rialisĂ©es XML. Nous commençons par identifier un dialecte expressif de XQuery, correspondant aux motifs d'arbres avec des jointures sur la valeur, et nous Ă©tudions des propriĂ©tĂ©s importantes de ces requĂȘtes, y compris l'inclusion et la minimisation. En nous fondant sur ces notions, nous considĂ©rons le problĂšme de trouver des rĂ©Ă©critures minimales et Ă©quivalentes d'une requĂȘte exprimĂ©e dans ce dialecte, en utilisant des vues matĂ©rialisĂ©es exprimĂ©es dans le mĂȘme dialecte, et nous fournissons un algorithme correct et complet Ă  cet effet. Notre travail dĂ©passe l'Ă©tat de l'art en permettant Ă  chaque motif d'arbre de renvoyer un ensemble d'attributs, en prenant en charge des jointures sur la valeur entre les motifs, et en considĂ©rant des rĂ©Ă©critures qui combinent plusieurs vues. Enfin, nous montrons comment notre mĂ©thode de rĂ©Ă©criture peut ĂȘtre appliquĂ©e dans un contexte distribuĂ©, pour la dissĂ©mination efficace d'un corpus de documents XML annotĂ©s en RDF.Data is being published in digital formats at very high rates nowadays. A large share of this data has complex structure, typically organized as trees (Web documents such as HTML and XML being the most representative) or graphs (in particular, graph-structured Semantic Web databases, expressed in RDF). There is great interest in exploiting such complex data, whether in an Open Data access model or within companies owning it, and efficiently doing so for large data volumes remains challenging. Materialized views have long been used to obtain significant performance improvements when processing queries. The principle is that a view stores pre-computed results that can be used to evaluate (possibly part of) a query. Adapting materialized view techniques to the Web data setting we consider is particularly challenging due to the structural and semantic complexity of the data. This thesis tackles two problems in the broad context of materialized view-based management of Web data. First, we focus on the problem of view selection for RDF query workloads. We present a novel algorithm, which, based on a query workload, proposes the most appropriate views to be materialized in the database, in order to minimize the combined cost of query evaluation, view maintenance and view storage. Although RDF query workloads typically feature many joins, hampering the view selection process, our algorithm scales to hundreds of queries, a number unattained by existing approaches. Furthermore, we propose new techniques to account for the implicit data that can be derived by the RDF Schemas and which further complicate the view selection process. The second contribution of our work concerns query rewriting based on materialized XML views. We start by identifying an expressive dialect of XQuery, corresponding to tree patterns with value joins, and study some important properties for these queries, such as containment and minimization. Based on these notions, we consider the problem of finding minimal equivalent rewritings of a query expressed in this dialect, using materialized views expressed in the same dialect, and provide a sound and complete algorithm for that purpose. Our work extends the state of the art by allowing each pattern node to return a set of attributes, supporting value joins in the patterns, and considering rewritings which combine many views. Finally, we show how our view-based query rewriting algorithm can be applied in a distributed setting, in order to efficiently disseminate corpora of XML documents carrying RDF annotations.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Gestion des données efficace en pair-à-pair

    No full text
    Le dĂ©veloppement de l'internet a conduit Ă  une grande augmentation de l'information disponible pour les utilisateurs. Ces utilisateurs veulent exprimer leur besoins de maniĂšre simple, par l intermĂ©diaire des requĂȘtes, et ils veulent que ces requĂȘtes soient Ă©valuĂ©es sans se soucier oĂč les donnĂ©es sont placĂ©es ou comment les requĂȘtes sont Ă©valuĂ©es. Le travail qui est prĂ©sentĂ© dans cette thĂšse contribue Ă  l'objectif de la gestion du contenu du Web de maniĂšre dĂ©clarative et efficace et il est composĂ© de deux parties. Dans le premier partie, nous prĂ©sentons OptimAX, un optimiseur pour la langage Active XML qui est capable de reĂ©crire un document Active XML donnĂ© dans un autre document Ă©quivalent dont l'Ă©valuation sera plus efficace. OptimAX contribue Ă  rĂ©soudre le problĂšme d'optimisation des requĂȘtes distribuĂ©es dans le cadre d'Active XML et nous prĂ©sentons deux Ă©tudes de cas. Dans le deuxiĂšme partie, nous proposons une solution au problĂšme de l'optimisation d'un point de vue diffĂ©rent. Nous optimisons des requĂȘtes en utilisant un ensemble des requĂȘtes prĂ©-calculĂ©es (vues matĂ©rialisĂ©es). Nous avons dĂ©veloppĂ© une plateforme pair-Ă -pair, qui s'appelle ViP2P (views in peer-to-peer) qui permet aux utilisateurs de publier des documents XML et de spĂ©cifier des vues sur ces documents en utilisant une langage de motifs d'arbres. Quand un utilisateur pose une requĂȘte, le systĂšme essaiera de trouver des vues qui peuvent ĂȘtre combinĂ©es pour construire une rĂ©Ă©criture Ă©quivalente Ă  la requĂȘte. Nous avons fait des expĂ©rimentations en utilisant des ordinateurs des diffĂ©rents laboratoires en France et nous avons montrĂ© que notre plateforme passe Ă  l'Ă©chelle jusqu'Ă  plusieurs GB de donnĂ©es.Internet has led to a fundamental increase of information that is available to its users over the latest years. The users want to express their needs by simple means, such as queries and they want their queries to be evaluated without caring where the data are placed or how the queries are optimized. The work presented in this thesis contributes to the goal of declarative and efficient management of Web content in distributed settings and it is divided into two main chapters. In the first chapter we study OptimAX, an optimizer for the Active XML language which is able to rewrite a given Active XML document to an equivalent document which would, very likely, have smaller execution cost. With OptimAX we focus on the problem of distributed query optimization in the Active XML setting and we present two interesting case studies inspired by the R\&D projects in which our group has been involved. In the second chapter, we propose solutions to the optimization problem from a different perspective. We optimize queries using a set of precomputed queries (materialized views). We have developed a peer-to-peer platform, called ViP2P (views in peer-to-peer) that gives to the users the opportunity to publish their XML documents and to specify views over these documents using a tree pattern language. Whenever a user asks a query, the system will try to find views that can be combined in order to find a rewriting equivalent to the asked query. We have carried WAN experiments that show the scalability of the ViP2P platform.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Les modules d'accÚs XML (vers l'indépendance physique de données, dans les bases de données XML)

    No full text
    Nous Ă©tudions dans cette thĂšse le problĂšme de l'indĂ©pendance physique des donnĂ©es dans les bases de donnĂ©es XML. Dans une premiĂšre partie de cette thĂšse nous proposons les modules d'accĂšs XML (XML Access Modules ou XAMs) - un langage de motifs d'arbre conçu pour exprimer un grand sous-ensemble de XQuery, et enrichi avec des noeuds optionnels (permettant de capturer des motifs qui couvrent plusieurs requĂȘtes imbriquĂ©es) et des identiants structurels (qui augmentent les possibilitĂ©s de rĂ©Ă©criture). Nous dĂ©montrons que ce langage des vues peut ĂȘtre utilise pour dĂ©crire uniformĂ©ment un grand nombre de schĂ©mas de stockage, d'index et de vues matĂ©rialisĂ©es. Dans une deuxiĂšme partie de cette thĂšse nous Ă©tudions le problĂšme de la rĂ©Ă©criture des requĂȘtes XQuery Ă  travers des vues exprimĂ©es par des modules d'accĂšs XML. Dans un premier temps, nous prĂ©sentons un algorithme capable d'extraire des motifs XAM Ă  partir des requĂȘtes XQuery et nous dĂ©montrons l'importance d'utiliser des vues qui peuvent enjamber plusieurs blocs XQuery imbriquĂ©s. Par la suite, nous Ă©tudions le problĂšme de la rĂ©Ă©criture des requĂȘtes en utilisant des vues materialisĂ©es, oĂč la requĂȘte et les vues sont dĂ©crites par des vues XAM. Nous caractĂ©risons la complexitĂ© de l'inclusion de motifs d'arbre et de la rĂ©Ă©criture des requĂȘtes sous les contraintes exprimĂ©es par des rĂ©sumĂ©s structurels, dont une forme augmentĂ©e permettra Ă©galement d'exprimer des contraintes d'intĂ©gritĂ©.The purpose of this thesis is to design a framework for achieving the goal of physical data independence in XML databases. We first propose the XML Access Modules - a rich tree pattern language featuring multiple returned nodes, nesting, structural identifiers and optional nodes, and we show how it can be used to uniformly describe a large set of XML storage schemes, indices and materialized views. A second part of this thesis focuses on the problem of XQuery rewriting using XML Access Modules. As a first step of our rewriting approach we present an algorithm to extract XML Access Modules patterns from XQuery and we show that the patterns we identify are strictly larger than in previous works, and in particular may span over nested XQuery blocks. We characterize the complexity of tree pattern containment (which is a key subproblem of rewriting) and rewriting itself, under the constraints expressed by a structural summary, whose enhanced form also entails integrity constraints. We also show how to exploit the structural identifiers from the view definitions in order to enhance the rewriting opportunities.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Database techniques for semantics-rich semi-structured Web data

    No full text
    RDF et SPARQL se sont imposĂ©s comme modĂšle de donnĂ©es et langage de requĂȘtes standard pour dĂ©crire et interroger les donnĂ©es sur la Toile. D importantes quantitĂ©s de donnĂ©es RDF sont dĂ©sormais disponibles, sous forme de jeux de donnĂ©es ou de mĂ©ta-donnĂ©es pour des documents semi-structurĂ©s, en particulier XML. La coexistence et l interdĂ©pendance grandissantes entre RDF et XML rendent de plus en plus pressant le besoin de reprĂ©senter et interroger ces donnĂ©es conjointement. Bien que de nombreux travaux couvrent la production et la publication, manuelles ou automatiques, d annotations pour donnĂ©es semi-structurĂ©es, peu de recherches ont Ă©tĂ© consacrĂ©es Ă  l exploitation de telles donnĂ©es. Cette thĂšse pose les bases de la gestion de donnĂ©es hybrides XML-RDF. Nous prĂ©sentons XR, un modĂšle de donnĂ©es accommodant l aspect structurel d XML et la sĂ©mantique de RDF. Le modĂšle est suffisamment gĂ©nĂ©ral pour reprĂ©senter des donnĂ©es indĂ©pendantes ou interconnectĂ©es, pour lesquelles chaque nƓud XML est potentiellement une ressource RDF. Nous introduisons le langage XRQ, qui combine les principales caractĂ©ristiques des langages XQuery et SPARQL. Le langage permet d interroger la structure des documents ainsi que la sĂ©mantique de leurs annotations, mais aussi de produire des donnĂ©es semi-structurĂ©es annotĂ©es. Nous introduisons le problĂšme de composition de requĂȘtes dans le langage XRQ et Ă©tudions de maniĂšre exhaustive les techniques d Ă©valuation de requĂȘtes possibles. Nous avons dĂ©veloppĂ© la plateforme XRP, implantant les algorithmes d Ă©valuation de requĂȘtes dont nous comparons les performances expĂ©rimentalement. Nous prĂ©sentons une application reposant sur cette plateforme pour l annotation automatique et manuelle de pages trouvĂ©es sur la Toile. Enfin, nous prĂ©sentons une technique pour l infĂ©rence RDFS dans les systĂšmes de gestion de donnĂ©es RDF (et par extension XR).Since the beginning of the Semantic Web, RDF and SPARQL have become the standard data model and query language to describe resources on the Web. Large amounts of RDF data are now available either as stand-alone datasets or as metadata over semi-structured documents, typically XML. The ability to apply RDF annotations over XML data emphasizes the need to represent and query data and metadata simultaneously. While significant efforts have been invested into producing and publishing annotations manually or automatically, little attention has been devoted to exploiting such data. This thesis aims at setting database foundations for the management of hybrid XML-RDF data. We present a data model capturing the structural aspects of XML data and the semantics of RDF. Our model is general enough to describe pure XML or RDF datasets, as well as RDF-annotated XML data, where any XML node can act as a resource. We also introduce the XRQ query language that combines features of both XQuery and SPARQL. XRQ not only allows querying the structure of documents and the semantics of their annotations, but also producing annotated semi-structured data on-the-fly. We introduce the problem of query composition in XRQ, and exhaustively study query evaluation techniques for XR data to demonstrate the feasibility of this data management setting. We have developed an XR platform on top of well-known data management systems for XML and RDF. The platform features several query processing algorithms, whose performance is experimentally compared. We present an application built on top of the XR platform. The application provides manual and automatic annotation tools, and an interface to query annotated Web page and publicly available XML and RDF datasets concurrently. As a generalization of RDF and SPARQL, XR and XRQ enables RDFS-type of query answering. In this respect, we present a technique to support RDFS-entailments in RDF (and by extension XR) data management systems.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Données en masse et workflows interactifs pour la visualisation analytique

    No full text
    L'expansion du World Wide Web et la multiplication des sources de donnĂ©es (capteurs, services Web, programmes scientifiques, outils d'analyse, etc.) ont conduit Ă  la prolifĂ©ration de donnĂ©es hĂ©tĂ©rogĂšnes et complexes. La phase d'extraction de connaissance et de recherche de corrĂ©lation devient ainsi de plus en plus difficile.Typiquement, une telle analyse est effectuĂ©e en utilisant les outils logiciels qui combinent: des techniques de visualisation, permettant aux utilisateurs d'avoir une meilleure comprĂ©hension des donnĂ©es, et des programmes d'analyse qui effectuent des opĂ©rations d'analyses complexes et longues.La visualisation analytique (visual analytics) vise Ă  combiner la visualisation des donnĂ©esavec des tĂąches d'analyse et de fouille. Etant donnĂ©e la complexitĂ© et la volumĂ©trie importante des donnĂ©es scientifiques (par exemple, les donnĂ©es associĂ©es Ă  des processus biologiques ou physiques, donnĂ©es des rĂ©seaux sociaux, etc.), la visualisation analytique est appelĂ©e Ă  jouer un rĂŽle important dans la gestion des donnĂ©es scientifiques.La plupart des plateformes de visualisation analytique actuelles utilisent des mĂ©canismes en mĂ©moire centrale pour le stockage et le traitement des donnĂ©es, ce qui limite le volume de donnĂ©es traitĂ©es. En outre, l'intĂ©gration de nouveaux algorithmes dans le processus de traitement nĂ©cessite du code d'intĂ©gration ad-hoc. Enfin, les plate-formes de visualisation actuelles ne permettent pas de dĂ©finir et de dĂ©ployer des processus structurĂ©s, oĂč les utilisateurs partagent les donnĂ©es et, Ă©ventuellement, les visualisations.Ce travail, Ă  la confluence des domaines de la visualisation analytique interactive et des bases de donnĂ©es, apporte deux contributions. (i) Nous proposons une architecture gĂ©nĂ©rique pour dĂ©ployer une plate-forme de visualisation analytique au-dessus d'un systĂšme de gestion de bases de donnĂ©es (SGBD). (ii) Nous montrons comment propager les changements des donnĂ©es dans le SGBD, au travers des processus et des visualisations qui en font partie. Notre approche permet Ă  l'application de visualisation analytique de profiter du stockage robuste et du dĂ©ploiement automatique de processus Ă  partir d'une spĂ©cification dĂ©clarative, supportĂ©s par le SGBD.Notre approche a Ă©tĂ© implantĂ©e dans un prototype appelĂ© EdiFlow, et validĂ©e Ă  travers plusieurs applications. Elle pourrait aussi s'intĂ©grer dans une plate-forme de workflow scientifique Ă  usage intensif de donnĂ©es, afin d'en augmenter les fonctionnalitĂ©s de visualisation.The increasing amounts of electronic data of all forms, produced by humans (e.g. Web pages, structured content such as Wikipedia or the blogosphere etc.) and/or automatic tools (loggers, sensors, Web services, scientific programs or analysis tools etc.) leads to a situation of unprecedented potential for extracting new knowledge, finding new correlations, or simply making sense of the data.Visual analytics aims at combining interactive data visualization with data analysis tasks. Given the explosion in volume and complexity of scientific data, e.g., associated to biological or physical processes or social networks, visual analytics is called to play an important role in scientific data management.Most visual analytics platforms, however, are memory-based, and are therefore limited in the volume of data handled. Moreover, the integration of each new algorithm (e.g. for clustering) requires integrating it by hand into the platform. Finally, they lack the capability to define and deploy well-structured processes where users with different roles interact in a coordinated way sharing the same data and possibly the same visualizations.This work is at the convergence of three research areas: information visualization, database query processing and optimization, and workflow modeling. It provides two main contributions: (i) We propose a generic architecture for deploying a visual analytics platform on top of a database management system (DBMS) (ii) We show how to propagate data changes to the DBMS and visualizations, through the workflow process. Our approach has been implemented in a prototype called EdiFlow, and validated through several applications. It clearly demonstrates that visual analytics applications can benefit from robust storage and automatic process deployment provided by the DBMS while obtaining good performance and thus it provides scalability.Conversely, it could also be integrated into a data-intensive scientific workflow platform in order to increase its visualization features.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF
    corecore